大家可能听说过很多次,DeepSeek V4就要爱了,这一次可能是最靠谱的时间点了。 就在上周,多位知情人士透露,DeepSeek创始人梁文锋在内部已经明确了节奏:下一代旗舰大模型V4,计划于4月下旬正式与公众见面 。 但这一次,DeepSeek V4干了一件牛逼的事情:完全运行在华为昇腾950PR芯片之上,底层代码从CUDA全面转向华为自研的CANN框架 。 这意味着什么? 但其实我觉得 DeepSeek V4 虽然会比 V3 更好,但一定没有大家像之前期待的那么炸裂。 我们应该用正常的眼光来看待更多“平凡、也会犯错的 DeepSeek",哪怕崩溃了,V4 不那么惊艳,也并不影响 DeepSeek 的历史地位,已经它仍然是一家巨牛逼的公司。
去年DeepSeek的产品线是分开的:V3干通用的活,R1专门搞推理。 DeepSeek从V3.1开始也走了这条路,V4当然也是混合架构。所以R2这个代号,大概率就这么退休了。就像OpenAI的o3,也成了最后一代独立推理模型,直接被吞进了GPT-5。 在很多人觉得“参数规模不太重要了”的今天,DeepSeek用V4说了一句:大就是有效,大就是聪明,大就是领先。但“大”也有代价。参数涨了,推理成本就压不住。 比架构更值得关注的:国产算力V4发布当天,华为云就宣布昇腾超节点完成全栈适配。这背后工程量有多大?DeepSeek需要把大量原本跑在NVIDIAGPU上的CUDA代码,迁移到华为的CANN架构上。 DeepSeek作为国内最强开源力量,正在用V4把国产算力生态拉进真正的实战场景。而且MIT许可证全开源,任何人都能拿去用、拿去改、拿去商用。写在最后V4这次发布,没有去年R1那种颠覆式的震撼。
DeepSeek 更新了V4? 下午5点左右,DeepSeek更新了一个新模型,据说是个小模型,整理能力我个人觉得比3.2是强一点的,但还比不上谷歌的Gemini 3,所以不确定是不是V4。 是不是很神奇,其实离DeepSeek R1发布才1年多,恍如隔世。
中国AI实验室DeepSeek推出了其最新大语言模型DeepSeek V4的两个预览版本,这是对去年V3.2模型及伴随的R1推理模型的备受期待的更新,后者曾席卷AI领域。 该公司表示,DeepSeek V4 Flash和V4 Pro均为混合专家(Mixture-of-Experts)模型,每个模型拥有100万token的上下文窗口——足以让大型代码库或文档用于提示词中。 DeepSeek表示,由于架构改进,这两个模型比DeepSeek V3.2更高效、性能更佳,并且在推理基准上几乎“缩小了”与当前领先模型(无论是开放还是闭源)的差距。 在编程竞赛基准中,DeepSeek表示两款V4模型的性能“与GPT-5.4相当”。 V4 Flash和V4 Pro都仅支持文本,不像许多闭源同行那样支持理解并生成音频、视频和图像。值得注意的是,DeepSeek V4比当今任何前沿模型都便宜得多。
AI圈近期的热度,几乎全被DeepSeek V4的相关猜测承包了。 恰逢DeepSeek-R1发布一周年,官方GitHub代码库中突然曝光的“MODEL1”标识,瞬间点燃全网讨论热情。 今天我们梳理全网真实信息,聚焦大家最关心的四大核心焦点,看看各方都在热议什么~ 焦点一:发布时间——春节前后成共识,外媒与代码线索相互印证 ● 发布时间:关于DeepSeek V4的发布时间,全网猜测高度集中在 ● 业内普遍认为,V4若延续开源路线,将进一步强化这一优势。 春节的烟花要来了,DeepSeek V4 也要点燃中国 AI 的新引擎,不管是想让 AI 精准匹配品牌风格的创作者,还是需要适配行业术语的职场人,如果想通过微调让 V4 变成 “专属定制款”,可以看看 无论你是想微调行业咨询工具、报告生成器,又或是想解放双手的加班党、定制专属 AI 的科技迷,2 月中旬都可以蹲一波 DeepSeek V4 首发,再用 LLaMA-Factory Online 解锁定制新玩法
时间回到一年多前,DeepSeek-R1的横空出世,为狂奔的大模型创业赛踩了一脚刹车,进入决赛圈的大模型“六小虎”首当其冲。 和硅谷最大的区别,DeepSeek没有扮演吃掉池子里所有鱼的“鲨鱼”,而是像鲶鱼一样激活了整个中国大模型生态,大家纷纷拥抱开源。 有了DeepSeek贡献的“业界标准”,月之暗面在内的大模型团队不需要重复造轮子,快速降低了推理成本。故事并未止步于此。 DeepSeek在训练V4大模型时,同样采用了被验证过的Muon优化器。需要说明的是,开源大模型的“协同进化”并未陷入同质化,正在走向一条“和而不同”的道路。 2025年8月发布的GPT-5,训练成本超过5亿美元;同期的KimiK2Thinking,训练成本约460万美元;DeepSeek没有公布V4系列模型的训练成本,但V3模型仅花费了557.6万美元...
上周 DeepSeek 官宣 V4 定档,我第一时间就盯上了。原因很简单——我手头有个日均 10 万次调用的知识库项目,之前跑在 DeepSeek V3 上,效果还行但复杂推理经常翻车。 DeepSeek V4 是 DeepSeek 于 2026 年发布的新一代开源大语言模型,万亿参数 MoE(混合专家)架构,激活参数约 370B,代码生成、复杂推理和长上下文理解比 V3 强了一大截。 DeepSeek 选在这个放出 V4,摆明了要在开源阵营里抢回话语权。 DeepSeek 一贯走低价路线,V4 也没让人失望:计费项DeepSeek V4 官方GPT-5Claude Opus 4.6Gemini 3 ProAPI 聚合平台 聚合 (DeepSeek V4) V4 的 API 接口和 V3 完全一致,model 参数从 deepseek-v3 改成 deepseek-v4 就行,SDK 不用换。Q2:V4 的 256K 上下文是真的能用满吗?
我这两天也在看这个消息,说实话一开始看到“DeepSeek V4 + 去CUDA化”,我第一反应不是模型强不强,而是:这事如果是真的,影响其实比模型性能更大。 所以这次网传DeepSeek V4要“去CUDA化”,本质就是在做一件事: 试图绕开英伟达这条路,自己建立一套能跑通的体系而从现在流出来的信息看,它不是随便说说的那种,而是已经在做实际适配,比如和国产芯片 而DeepSeek这一波,如果真的能在国产芯片上跑通,并且性能不差,那意味着: 算力生态可能开始分裂这对整个行业是个大变量。 说白了就是: 简单任务用便宜模型,复杂任务再上高性能模型这种思路其实和“Token工厂”或者DeepSeek现在在做的事情,本质是一样的——都是在优化成本结构。 最后说一下我的整体看法:DeepSeek V4 本身:值得期待,但还要看真实效果去CUDA化:如果是真的,是战略级变化行业影响:短期炒作,中长期可能改格局一句话总结我自己的感觉: 这不是一次模型升级,更像是在试图改游戏规则如果它真跑通了
4月4日消息,根据外媒《The Information》报导,中国人工智能(AI)企业DeepSeek即将推出的新一代大语言模型V4,并已基于包括华为在内的最新国产AI芯片进行了优化。 报道指出,DeepSeek-V4预计将于未来数周内发布。 为确保新模型能在国产硬件上顺利运行,DeepSeek过去数月已与华为及寒武纪(Cambricon)密切合作,针对模型底层程序进行调整与重写,并同步进行测试验证。 相较于过往AI模型开发通常会与美国芯片大厂合作进行性能优化,DeepSeek此次并未向美系AI芯片供应商开放测试,而是优先提供本土芯片厂参与。 此外,该公司亦同步开发两款V4衍生版本,分别针对不同应用场景优化,并同样以中国芯片为基础设计。 市场之所以高度关注DeepSeek-V4,主要来自其前代产品的影响力。
DeepSeek V4 要来了?这次可能是真的 4 月 19 日,普林斯顿 AI 实验室研究员 Yifan Zhang 在 X 上发了一条极其简短的帖子——"V4, next week." 能做到万亿参数的关键基础设施 DeepSeek V4 已知信息汇总 综合各方报道,V4 目前已知的信息: 特性 详情 参数规模 约 1 万亿(万亿级 MoE),每个 token 激活约 32-37B 全栈国产算力,这是最大的信号 V4 如果真的完全跑在华为昇腾芯片上,那意味着 DeepSeek 从 CUDA 迁移到了 CANN 框架,实现全链路国产化 这对整个中国 AI 产业的意义远超一个模型发布本身 定价继续卷 每百万 token $0.30,延续了 DeepSeek 一贯的"价格屠夫"风格 V3 时期就已经是业内最便宜的了,V4 在万亿参数的情况下还能维持这个价位,MoE 的稀疏激活功不可没 3. ,这次的信号密度确实是最高的 总结 如果 V4 真的在下周发布,它将是: 国产 AI 模型首个万亿参数级开源模型 首个全面适配国产算力的旗舰大模型 百万级上下文窗口 + 极致性价比的组合 DeepSeek
DeepSeek V4 预览版的上线,不仅仅是一个版本号的跳动,我觉得它更像是大模型开源领域的一个“分水岭”。 但 DeepSeek 这次 V4 的技术报告,我是一行一行啃下来的,这里面透露出的工程思路,确实有点东西。 DeepSeek V4 给我的感觉是它终于“开窍”了。在 V4 发布之前,市面上绝大多数模型写代码,本质上还是“填空题”模式。你给一段描述,它补全代码。 DeepSeek V4 虽然开源了,但要真把这样一个百万上下文的“巨兽”跑起来,对硬件的要求依然是天文数字。 去注册个账号试试,反正免费: 反正现在 DeepSeek V4 的接口都已经上架了,薅一下一折羊毛,把你的业务模型升级到 V4,没理由不省这一笔钱。
一向低调的 DeepSeek,在凌晨悄然更新了 GitHub。没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram。 而不少开发者已经开始猜测——这可能不是一篇“孤立论文”,而是 DeepSeek 下一代模型(V4)的重要技术预告。一、一个长期被忽视的问题:大模型到底在“算什么”? 它解决的是:参数规模 ≠ 计算量必须线性增长但 DeepSeek 的观察更进一步:即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。于是 Engram 出现了。 但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置。五、V4 会用吗?没人官宣,但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。 这条路,一旦走通,影响的不会只是 DeepSeek。
关键词:<Anthropic><安全治理><RSP><ASL标准><风险阈值> 行业动态 DeepSeek大升级,V4真的要来了? 圈里都在传,DeepSeek又搞大动作了。 内部人士透露,V4版本已经在路上,性能提升幅度"有点吓人"。 DeepSeek这家公司真的有点东西。从开源模型杀出一条血路,到现在连OpenAI都得正眼瞧一瞧。V4能不能延续V3的神话? 关键数据: 漏洞发现效率:超过大多数人类安全研究员 关键词:<AI安全><漏洞发现><自动化安全> `<AI能力> AI 中国 DeepSeek搅动AI圈,但现实也在搅动DeepSeek DeepSeek 据说DeepSeek现在面临几个甜蜜的烦恼:算力不够用、人才被疯狂挖角、还有来自各路"致敬者"的竞争。 有业内朋友说得好:DeepSeek搅动了AI圈,但现实也终将搅动DeepSeek。 升级 V4进行中 即将发布 行业观察 大厂扎堆发布AI视频工具,"卖铲人"生意越来越火 最近一个月,Google、Meta、Netflix……但凡叫得上名字的大厂,全在发布AI视频工具。
和3.7的区别是,整个流程通了,增加过场动画,技能切换,卡片消费,地形分布,以及角色信息显示。 另外特效上,引入的粒子系统和拖尾,效果不错。 以前对于这些依赖引擎(外力)的东西其实是有点抗拒的。就好像如果接受了这些『外力』,那这个游戏就不是自己做的一样。 那种感觉,有点像在菜鸟眼里,大师之所以画的好其实是他的作画工具好,只要自己挤出一点时间,买上他一样的工具,也能画的和他一样好…… 工具始终只是工具,或者说其实是『增幅器』,实力1的人拿到x10的工具,产出的是1x10的作品,而实力10的人拿到x10的工
而就在同一天,DeepSeek发布了全新V4大模型,而且是在华为昇腾芯片上首发。这两件事放在一起,很多人以为美股要抖一抖,结果却没有。(建议先收藏,这可能是你看过最接地气的AI产业分析。) 另一个是——DeepSeek发布了V4,而且是先在华为昇腾上亮相的。我当时的第一反应是:这怎么有点反直觉? 二、再看DeepSeek这边:牌打得不一样了先简单梳理一下V4到底发了什么。4月24日上午,DeepSeek正式发布并开源了V4系列预览版,分两个版本:Pro(旗舰)和Flash(轻量)。 不过,DeepSeek这次的策略比很多人想象的要聪明得多。它并没有“选边站”,而是同时在英伟达和华为两个平台上完成了适配验证。这意味着什么?意味着DeepSeek给自己留了两条路。 市场算的账很简单:V4虽然支持华为昇腾,但它不仅没有把英伟达排除在外,反而因为是开源模型,“每多一个部署V4的人,都可能多买一张卡”。
最近刷遍各类技术社群、海外社交平台,被一个名字反复轰炸—— DeepSeek V4 。 (全程基于公开爆料和DeepSeek迭代规律推测,非官方实锤,理性看待~) 01 先回顾:DeepSeek的迭代,从来都是“跨越式升级” 要读懂V4的期待值,先得看看DeepSeek的“成长履历”——从 02 爆料汇总:DeepSeek V4,可能藏着这4大核心突破 目前关于V4的官方信息几乎为零,但结合行业爆料、OpenRouter平台的神秘模型猜测,以及DeepSeek的技术路线,我们可以梳理出几个最值得期待的方向 DeepSeek从V1到V3,一直坚持开源路线,V4是否会延续这一传统,让开发者免费使用模型权重,目前还是未知数。 作为长期关注国产AI的博主,我会第一时间跟进V4的发布动态,一旦有官方消息、实测体验,会第一时间分享给大家。 最后想问大家:你最期待DeepSeek V4的哪个功能?
今天DeepSeek在HuggingFace发布了V4系列预览版,包含V4-Pro(1.6T参数49B激活)和V4-Flash(284B参数13B激活),并且提供了兼容Anthropic协议的API端点 env":{"ANTHROPIC_BASE_URL":"https://api.deepseek.com/anthropic","ANTHROPIC_AUTH_TOKEN":"${DEEPSEEK_API_KEY }","API_TIMEOUT_MS":"3000000","ANTHROPIC_MODEL":"deepseek-v4-pro","ANTHROPIC_SMALL_FAST_MODEL":"deepseek-v4 -flash","ANTHROPIC_DEFAULT_SONNET_MODEL":"deepseek-v4-pro","ANTHROPIC_DEFAULT_OPUS_MODEL":"deepseek-v4 -pro","ANTHROPIC_DEFAULT_HAIKU_MODEL":"deepseek-v4-flash","CLAUDE_CODE_SUBAGENT_MODEL":"deepseek-v4-pro
深度绑定DeepSeek的平台、软件、数据公司,以及为模型提供算力、数据支持的合作方,将优先享受模型爆发带来的生态红利,长期价值突出。
DeepSeekV4预览版:一次面向“推理时代”的阶段性宣告当DeepSeek以“V4预览版”的形式向外界开放时,行业的敏感神经会被立刻触发:这不是一次常规版本号迭代,而更像一种研究共同体式的信号——我先把关键能力放出来 V4预览版所引发的关注,本质上来自这一点:它被期待代表一种从“语言能力”走向“推理能力与系统能力”的转向。 DeepSeek过去给市场的一大印象,就是把“能力/成本比”做成竞争力。因此,V4预览版即便提升推理与稳定性,也很可能同步推进推理加速、部署优化与成本控制。 二、思考:V3→V4的进化路径,以及它对行业可能意味着什么? 这条路线如果成立,它意味着DeepSeek试图在两件常常矛盾的事之间取得平衡:一方面提升推理深度与可靠性,另一方面维持可部署性与性价比。
这篇文章会带你从V3的技术遗产出发,逐层拆解V4的三张核心技术底牌——mHC流形约束超连接、Engram条件记忆架构、以及新一代MoE稀疏计算,看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 这意味着DeepSeek可以更激进地增加模型深度,而不必担心训练过程中出现梯度爆炸或loss震荡。V4能做到万亿参数规模,mHC在背后提供了关键的基础设施保障。 base_url改成DeepSeek的端点即可,其他用法和调用GPT基本一致。V4发布后,只需要把model参数改成对应的模型名称(比如deepseek-v4),就能直接使用新模型的能力。 DeepSeek的价格只有它们的几十分之一到十分之一,但性能却在逼近甚至在某些维度(编程、长上下文)超越了它们。Tech-Now的技术分析指出,V4的推理成本比GPT-4o低了约97%。 对开源社区的示范效应从V3开始,DeepSeek就一直坚持开源策略。V4大概率也会推出开源版本。这对于全球开源社区来说是一个巨大的利好:一个万亿参数级别的SOTA模型,任何人都可以下载、微调、部署。